昨天我們提到,透過所處狀態、動作、以及移動後的狀態,可以根據獎勵函數獲得回饋。然而獲得這些資訊後,評估下一次遇到這個狀況,要採取什麼動作,需要透過 價值函數 幫助代理人決策。
在開始之前,我們一樣要先定義一些名詞與符號,幫助我們之後表達價值函數。
行動 (step):表示完成「獲得狀態、決定動作、移動到新狀態」整個流程。
策略 (
):將狀態與動作對應到機率的函數。表示某狀態下,採取某動作的機率,記做 
整體回饋 (
):預期在未來,我們可以得到的回饋總和,定義如下:
,其中 T 表示最後一次狀態轉移後得到的回饋。
不過在這個情況下,如果遇到
的情況,那麼
。這並不是我們樂見的情況,所以當
時,有另一種定義:
,其中 
與
,在同一個問題中,只會一個條件成立。
可以視為對未來獎懲的重視程度:
:只在乎這次行動,可以獲得多少回饋。
:在乎多次行動後,可以獲得的回饋總量。根據上面定義的符號,我們可以組成價值函數的定義

之下,處於這個狀態有多少價值,而價值是由未來可能獲得的回饋總和決定。也就是說,透過狀態價值函數,我們可以得知一個狀態的價值。相同的,我們也可以評估一個狀態下,採取某動作的價值。

綜上所述,我們現在有了評估狀態與動作的價值函數。透過數學定義,我們可以計算出狀態與動作的價值,但在實際上,應該不會有人想要手算這個東西。所以我們要嘗試用一些其他方法,幫助我們求助狀態與動作的價值。
[2018/10/15 修改] 原本是寫要使用動態規劃,後來考量到文章撰寫的連貫性,這裡不點出特定方法。